16 research outputs found

    A study of lip movements during spontaneous dialog and its application to voice activity detection

    No full text
    International audienceThis paper presents a quantitative and comprehensive study of the lip movements of a given speaker in different speech/nonspeech contexts, with a particular focus on silences i.e., when no sound is produced by the speaker . The aim is to characterize the relationship between "lip activity" and "speech activity" and then to use visual speech information as a voice activity detector VAD . To this aim, an original audiovisual corpus was recorded with two speakers involved in a face-to-face spontaneous dialog, although being in separate rooms. Each speaker communicated with the other using a microphone, a camera, a screen, and headphones. This system was used to capture separate audio stimuli for each speaker and to synchronously monitor the speaker's lip movements. A comprehensive analysis was carried out on the lip shapes and lip movements in either silence or nonsilence i.e., speech+nonspeech audible events . A single visual parameter, defined to characterize the lip movements, was shown to be efficient for the detection of silence sections. This results in a visual VAD that can be used in any kind of environment noise, including intricate and highly nonstationary noises, e.g., multiple and/or moving noise sources or competing speech signals

    Amélioration des tests de diagnostic sérologique des Herpèsvirus BoHV-1 et SuHV-1

    No full text
    Les programmes de contrôle de l'herpèsvirus bovin 1 et de l'herpèsvirus porcin 1 impliquent l'utilisation de vaccins marqueurs gE-. Associés à des tests sérologiques de détection des anticorps anti-gE, ces vaccins permettent de discriminer les animaux infectés des animaux vaccinés. Les tests commercialisés reposent sur un ELISA de blocage dans lequel l'antigène est un extrait brut des glycoprotéines de l'enveloppe virale. Ce format pose problème dans le cas d'animaux multivaccinés. Trois approches ont été explorées pour améliorer ces tests. La première consiste à réduire la taille du traceur en produisant le scFv correspondant à partir de l'hybridome. La seconde vise la production d'un antigène gE recombinant. Le gène gE a été cloné dans son intégralité et sous forme tronquée. Un gène synthétique a également été construit. La dernière approche consiste à identifier des mimotopes de la glycoprotéine gE en criblant des banques de peptides aléatoires par la technologie de "phage display".LYON1-BU Santé (693882101) / SudocPARIS-BIUP (751062107) / SudocSudocFranceF

    Shout analysis and characterisation

    No full text
    The goal of this paper is to analyse and to characterise the shout of a people to develop an automatic detector. We define a shout as a voiced part of an audio signal maintained over time. We show that a set of formants parameters can be defined to discriminate a typical « shout » from a « neutral » part of a speech. Moreover, it appears clearly that the duration of the window used to estimate these parameters is critical to yield better results. We conclude by presenting a performance analysis in the noisy context of a transport surveillance application

    Assessing the Performances of different Neural Network Architectures for the Detection of Screams and Shouts in Public Transportation

    No full text
    International audienceAs intelligent transportation systems are becoming more and more prevalent, the relevance of automatic surveillance systems grows larger. While such systems rely heavily on video signals, other types of signals can be used as well to monitor the security of passengers. The present article proposes an audio-based intelligent system for surveillance in public transportation, investigating the use of some state-of-the-art artificial intelligence methods for the automatic detection of screams and shouts. We present test results produced on a database of sounds occurring in subway trains in real working conditions, by classifying sounds into screams, shouts and other categories using different Neural Network architectures. The relevance of these architectures in the analysis of audio signals is analyzed. We report encouraging results, given the difficulty of the task, especially when a high level of surrounding noise is present.Au jour où les systèmes de transport intelligents devenant de plus en plus répandus, l'intérêt des systèmes de surveillance automatique augmente. Bien que ces systèmes reposent principalement sur les signaux vidéo, d'autres types de signaux peuvent également être utilisés pour surveiller la sécurité des passagers. Le présent article propose un système automatique de reconnaissance de motifs sonores pour la surveillance à l'intérieur des transports publics, en étudiant l'utilisation de méthodes d'intelligence artificielle de pointe pour la détection automatique des cris. Nous présentons des résultats testés sur une base de données de sons enregistrés au sein même d'une rame de métro dans des conditions de travail réelles, en classant les sons en cris et en d'autres catégories en utilisant différentes architectures de réseaux de neurones. Les résultats obtenus sont encourageants, compte tenu de la difficulté de la tâche, en particulier lorsque le niveau de bruit environnant est élevé

    Deep neural networks for automatic detection of screams and shouted speech in subway trains

    No full text
    IEEE ICASSP 2016 - International Conference on Acoustics, Speech and Signal Processing, Shanghai, Chine, 20-/03/2016 - 25/03/2016International audienceDeep Neural Networks (DNNs) have recently become a popular technique for regression and classification problems. Their capacity to learn high-order correlations between input and output data proves to be very powerful for automatic speech recognition. In this paper we investigate the use of DNNs for automatic scream and shouted speech detection, within the framework of surveillance systems in public transportation. We recorded a database of sounds occurring in subway trains in real conditions of exploitation and used DNNs to classify the sounds into screams, shouts and other categories. We report encouraging results, given the difficulty of the task, especially when a high level of surrounding noise is present.Les réseaux de neurones profonds sont devenues récemment une technique populaire pour les problèmes de régression et de classification. Leur capacité d'apprendre des corrélations d'ordre éleÎ entre des entrées et des données de sortie s'aÏre être très un puissant outil pour reconnaissance automatique de la parole. Dans cet article, nous étudions l'utilisation des réseaux de neurones profonds pour la détection automatique de cris et de parole criée dans le cadre de systèmes de surveillance dans les transports publics. Pour cela, une base de données sonores a été enregistrée dans une rame de métro en condition réelle d'exploitation. Dans ce contexte, la détection de cri est réalisée via un classement de divers types de production de la parole dont des cris. Nous obtenons des résultats encourageants étant donné la difficulté de la tâche, en particulier vis-à-vis du haut niveau de bruit sonore environnant

    La séparation de sources audiovisuelles

    No full text
    En cette époque où les technologies du multimédia envahissent notre quotidien de sons et d'images, cette thèse a pour objectif, dans le cadre du traitement de la parole, d'étendre et d'unir deux domaines de recherche : la séparation aveugle de sources et l'étude des interactions audio-visuelles dans la communication parlée. Partant du fait que la parole c'est du son mais aussi de l'image, nous proposons de mettre en œuvre un système de séparation de signaux de parole, en exploitant l'information visuelle fournie par les lèvres d'un locuteur. Après une brève revue des concepts de la séparation aveugle de sources développés tout au long de ces 20 dernières années, nous rappelons divers travaux montrant le gain qu'apporte la parole audio-visuelle dans des milieux bruités, et certaines de ses potentialités dans des systèmes de traitement de la parole. Une première phase théorique traite d'un principe de séparation de sources basé sur l'utilisation d'une information spectrale, nous permettant de mettre en place les fondations de notre étude. Puis, grâce aux propriétés de la parole audio-visuelle (cohérence et complémentarité), cette information spectrale est remplacée par l'information audio visuelle modélisée par une probabilité conjointe entre un spectre audio et une forme de lèvres. Une étude sur les principales caractéristiques de ce modèle audio-visuel permet de passer à l'implémentation et à l'évaluation de ce système de séparation de source audio-visuelles. Les résultats montrent la faisabilité d'un tel système, le gain apporté par l'information visuelle vis-à-vis d'algorithmes de séparation aveugle de sources, et les perspectives dans des situations plus complexes.GRENOBLE1-BU Sciences (384212103) / SudocSudocFranceF
    corecore